155 1561-5359. Штучний інтелект, 2019, Х» 1-2 


УДК 519.1: 6218 


Р.М. Трохимчук 
Київський національний університет імені Тараса Шевченка, Україна 
пр. Академіка Глушкова, 4д, Київ, 03680 


РЕЗУЛЬТАТИ ТЕСТУВАННЯ, ДОСЛІДЖЕННЯ ТА АНАЛІЗУ 
ОСНОВНИХ АЛГОРИТМІВ КЛАСТЕРИЗАЦІЇ 
НАБОРІВ ЧИСЛОВИХ ДАНИХ 


К.М. ТгокНнутспик 
Куїу Мапопа! Тага5 5ПпеусрепКо Цпіуег5іїу, ОКтаїпе 
44, Асадетісіап Ніця5ПКоу Ауе, Куїу, 03680 


КЕ5ОІ.75 ОК ТЕЗ ТІХС, КЕ5ЕАКСН АХО АХАТ У 515 ОЕ ТНЕ ВАЗ5ІС 
СТ.О5ЗТЕКІХС АГСОБКІТНМ5 ОК ХОМЕКІСАЇ, РАТА 5ЕТ5 


Ця робота присвячена тестуванню, дослідженню та порівняльному аналізу найбільш відомих і широко 
використовуваних на практиці методів і алгоритмів кластеризації наборів числових даних. Для оцінки 
результатів розв'язання задачі кластеризації за допомогою візуалізації наборів даних на всіх етапах реалізації 
досліджуваних алгоритмів було застосовано метод багатовимірного шкалювання. Усі алгоритми були перевірені 
на штучних і реальних наборах даних. Для кожного з досліджених алгоритмів було сформульовано основні 
характеристики у вигляді їхніх відносних переваг і недоліків. На підставі результатів тестування сформульовано 
висновки і рекомендації щодо використання цих алгоритмів. 
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Вступ 

Ця робота містить результати тесту- 
вання, дослідження 1 порівняльного аналізу 
найбільш відомих і широко використовува- 
них на практиці методів і алгоритмів класте- 
ризації числових даних. 

Кластеризація (інші назви: кластерний 
аналіз; класифікація, розпізнавання образів 
або навчання без вчителя; таксономія та ін.) 
широко 1 ефективно використовується в сис- 
темах інтелектуального аналізу даних. Зав- 
данням інтелектуального аналізу даних є по- 
шук у великих наборах даних прихованих 
важливих і корисних закономірностей, які 
дають змогу отримати нові знання про до- 
сліджувані дані. На сьогодні синонімами 
терміна «інтелектуальний аналіз даних» є 
видобування даних (Даїа Міпіпе) і виявлен- 
ня знань (Кпом/едее Ріясоуегу) | 1,21. 
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Останнім часом особливий інтерес до 
методів інтелектуального аналізу даних ви- 
ник у зв'язку з широким розповсюдженням 1 
розвитком засобів збору і зберігання даних, 
які дають можливість накопичувати великі 
(величезні) обсяги інформації. Для фахівців 
з різних областей людської діяльності ви- 
никла проблема обробки та аналізу зібраних 
даних, перетворення їх у знання. 

Популярні класичні  математико- 
статистичні методи застосовні й ефективні 
для такого рівня далеко не у всіх ситуаціях. 
Для використання цих методів необхідно, як 
правило, мати попередні відомості (такі, на- 
приклад, як: незалежність, однорідність, ви- 
падковість, вид розподілу тощо) про шукані 
закономірності та мати достатню кваліфіка- 
цію в галузі математичної статистики. 
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У такій ситуації методи інтелектуаль- 
ного аналізу даних (які, крім іншого, безу- 
мовно, включають у себе і математико- 
статистичні методи) набувають особливої 
актуальності. Їхня основна особливість по- 
лягає у встановленні наявності і описі зако- 
номірностей у наборах даних, тоді як тради- 
ційні математико-статистичні методи орієн- 
товані головним чином на визначення або 
оцінку параметрів передбачуваних 
закономірностей. 

Серед методів інтелектуального аналі- 
зу даних особливе місце займають класифі- 
кація та кластеризація. Класифікація, вихо- 
дячи з відомого заздалегідь групування да- 
них на підмножини (класи), встановлює за- 
кономірності, за якими дані групуються са- 
ме таким чином, і дає можливість у подаль- 
шому класифікувати (розпізнавати) нові не- 
відомі об'єкти. Кластеризація ж, грунтую- 
чись на певному відношенні схожості (по- 
дібності, близькості) елементів набору да- 
них, формує підмножини (кластери), в які 
групуються вхідні дані. 

Кластеризація (навчання без вчителя) 
істотно відрізняється від класифікації (нав- 
чання з учителем) тим, що невідомими є як 
приналежність окремих об'єктів початкової 
вибірки до певних класів (кластерів), так і 
число таких класів. 

Можна виділити такі основні цілі за- 
дачі кластеризації: 

е Розуміння даних. Розбиття заданої мно- 
жини об'єктів (початкової вибірки) на 
групи подібні між собою дає змогу ви- 
значити структуру цієї множини. Це, у 
свою чергу, дає можливість спростити 
по-дальшу обробку даних. 

е Стиснення даних. Скорочення обсягу 
збережених даних шляхом формування 
репрезентативної вибірки, тобто виділен- 
ня і збереження найбільш типових пред- 
ставників у кожному кластері (наприк- 
лад, центрів кластерів, кількох централь- 
них елементів з кожного кластера тощо). 

є. Виявлення новизни. Виділення нетипових 
(особливих) об'єктів, які не входять до 
жодного зі знайдених кластерів. 
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- Побудова формальної (математичної) 
моделі для опису механізмів і процесів 
породження аналізованих даних, отри- 
мання можливості екстраполяції (перед- 
бачення поведінки) таких процесів. 

е- Розпізнавання образів. Набір даних, для 
якого вирішена задача кластеризації, мо- 
же в подальшому стати основою (як нав- 
чена початкова вибірка) для задачі 
класифікації. 

е- Тестування даних. У багатьох випадках, 
коли виникають сумніви у «кваліфікації 
вчителя» в задачі класифікації, буває ко- 
рисно навчену початкову вибірку піддати 
кластеризації, щоб переконатися в досто- 
вірності заданої вчителем структури цієї 
вибірки. 

Постановка завдання 

Задача кластеризації може бути форма- 
лізована у такий спосіб. Задано початкову ви- 
бірку (множину об'єктів) Х і функцію р 
близькості (подібності) між цими об'єктами. 
Потрібно розбити вибірку Х на непересічні 
підмножини, які називаються кластерами, 
так, щоб кожен кластер складався з об'єктів, 
близьких згідно з заданою функцією р, а 
об'єкти різних кластерів істотно відрізнялися. 

Алгоритм кластеризації -- це процеду- 
ра визначення функції, яка кожному об'єкту 
з Х приписує мітку (номер) відповідного 
кластера. Множина міток рідко буває відома 
заздалегідь, тому часто в задачу кластериза- 
ції входить також визначення оптимального 
числа кластерів, з точки зору того чи іншого 
критерія якості кластеризації. 

Таким чином, задачу кластеризації 
можна сформулювати як задачу дискретної 
оптимізації: необхідно так приписати номе- 
ра кластерів об'єктам початкової вибірки, 
щоб значення певного функціоналу якості 
стало оптимальним. Існує багато різновидів 
функціоналів якості кластеризації, але немає 
«найкращого» серед них. 

Рішення задачі кластеризації прин- 
ципово неоднозначно з ряду причин. По- 
перше, не існує універсального найкращого 
критерія якості кластеризації. По-друге, чис- 
ло кластерів, як правило, невідомо заздале- 
гідь і встановлюється відповідно до деяких 
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суб'єктивних критеріїв. По-третє, результат 
кластеризації істотно залежить від функції 
близькості р, вибір якої, як правило, також 
суб'єктивний. Нарешті, результат кластери- 
зації залежить від застосовуваного для її ви- 
рішення алгоритму. Вище перераховано ли- 
ше основні причини неоднозначності. 

Створення алгоритму кластеризації, 
що успішно працює в усіх ситуаціях, є зада- 
чею нереальною і безперспективною. Також 
слід враховувати, що на сьогодні не існує 
формальних способів адекватного вибору 
конкретного алгоритму (або алгоритмів) 
кластеризації для заданих наборів даних. 
Таким чином, задача кластеризації у біль- 
шості випадків є суто евристичною. 

Оскільки задача кластеризації може 
бути вирішена різними способами, то для 
якісного і швидкого її розв'язання в кон- 
кретній ситуації необхідно мати методики 
вибору найбільш адекватних з можливих 
процедур. У зв'язку з цим особливої акту- 
альності набуває знання особливостей, ос- 
новних характеристик, переваг і недоліків 
різних доступних методів і алгоритмів клас- 
теризації. Таке знання істотно полегшить 
вибір найкращого рішення 1 дозволить отри- 
мувати найбільш достовірний результат. 

У цій роботі розглянуто й проаналізо- 
вано найбільш відомі і широко використову- 
вані на практиці алгоритми кластеризації, 
призначені для обробки числових даних. 
Здійснено тестування цих алгоритмів на 
штучних і реальних даних. За результатами 
тестування сформульовано | висновки |і 
рекомендації. 

Методика дослідження 

Багаторазові спроби класифікації ме- 
тодів кластерного аналізу призводять до де- 
сятків, а то і сотень різноманітних класів ал- 
горитмів кластеризації. Таке розмаїття по- 
роджується великою кількістю можливих 
способів обчислення близькості між окре- 
мими об'єктами вибірки, не меншою кіль- 
кістю методів обчислення близькості між 
окремими кластерами, різноманітними оцін- 
ками (критеріями) оптимальності кінцевої 
кластерної структури та ін. Загальноприйня- 
тої класифікації методів кластеризації не іс- 
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нує, але можна виділити ряд груп підходів 

(деякі методи можна віднести відразу до 

кількох груп). 

Найбільшого поширення набули дві 
групи алгоритмів кластерного аналізу: 
ієрархічні і неієрархічні (ітеративні) методи 
13,41. 

Основними методами ієрархічного 
кластерного аналізу є агломеративні методи 
(АСМЕЗ - Аєбєіотеганує Мезіпо) одиночно- 
го (ближнього сусіда), повного і середнього 
зв'язку, дівізимні методи (РІАМА -- Дімі8іує 
Апаїузі8) ВІКСН, МУТ, метод Варда. Серед 
неієрархічних методів слід виділити алго- 
ритм К-середніх, РАМ (Рагійопіпя, Агоппа 
Медоїдз) - К-теап58 -- К-тедоїдз, МеапЗрій, 
ЕМ-алгоритм | (Ехресіайоп-Махітігабоп), 
алгоритми ОВУЗСАХМ і ЕОБЕЇ.. 

Вибираючи між ієрархічними 1 неїє- 
рархічними методами, слід звернути увагу 
на такі моменти. Неїєрархічні методи є 
більш стійкими до викидів, невдалого вибо- 
ру функції близькості, використання неїс- 
тотних (фіктивних) змінних серед коорди- 
нат наборів даних та ін. Але використовую- 
чи ці методи, дослідник повинен обирати 
початкову (стартову) точку, підсумкову 
кількість кластерів, умову зупинки алгорит- 
му та інші параметри. Все це істотно відби- 
вається на ефективності 1 часі роботи ітера- 
тивних алгоритмів. 

У даній роботі для аналізу було обрано 
такі алгоритми: 

е Спектральна кластеризація  (ЯЗресітаї 
СПизіегіпе); 

е Ієрархічна (агломераційна) кластеризація 
з  одиночним | 1 4/| повним зв'язком 
(Аєвіотегайує сІц5іегіпє ул 5іпеЇе апа 
сотріеіе ПпКаєг); 

е. Середнє зміщення (Меап 5Ніб); 

- ВІКСН (Ваіапсед Пегайуе Кедисіпя, апа 

СТизіегіпе ц8іпє НіегагсПіе5); 

К-середніх (К-Меапя 1 МіпіВаїрі-К-Меапз); 

СОКЕ (СТизіегіпє О51пеє КЕрге5епіапує5); 

к-Медоїадз; 

ОВЗ5САМ (Депзігу-Ва5ед Урацаї 

СТибіегіпе ої Арріїсайоп5 ул Мої5е); 

- ЕМ (Ехресіабоп5-Махітігацоп); 

- БОБНІ, (Богта! Еіетепі). 
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Відповідні програми були взяті з різ- 
них відкритих джерел. У процесі апробації 
деякі з цих програм модифікувалися для 
адаптації до конкретної ситуації. 

Було розроблено дві групи тестів для 
аналізу і порівняння алгоритмів кластериза- 
ції. Перша група складається з модельних 
(штучних) наборів точок, для яких результат 
можливої кластеризації заздалегідь відомий. 
З метою перевірки досліджуваних алгорит- 
мів на стабільність для цієї групи застосову- 
валися методи накладання різних шумів на 
початкові ідеальні дані. У другій групі тестів 
точки початкової вибірки вибираються ви- 
падково за допомогою різних датчиків ви- 
падкових чисел із застосуванням різних за- 
конів розподілу. 

Для оцінки результатів розв'язання за- 
дачі кластеризації істотне значення мають 
прості й зручні у використанні засоби візуа- 
лізації та здійснена з Їхньою допомогою екс- 
пертна оцінка достовірності цих результатів. 
Візуалізація даних є важливою частиною 
якісної системи аналізу даних. Візуалізацію 
бажано запроваджувати як для початкового 
набору даних, так 1 для аналізу проміжних 
та, особливо, остаточних результатів класте- 
ризації. Візуалізація наборів даних є непрос- 
тою проблемою, особливо якщо початкова 
вибірка велика, а простір об'єктів істотно 
багатовимірний. 

Для візуалізації початкової вибірки і 
результатів кластеризації використовують 
метод багатовимірного шкалювання 
(МишРітепзіопа! Зсайпе, МО5) |3,61, який 
дає можливість відобразити початкову ви- 
бірку й рішення задачі кластеризації у вигля- 
ді множини точок у просторі меншої розмір- 
ності. Наприклад, отримати тривимірне або 
навіть плоске відображення для наборів да- 
них. Таке подання в цілому відображає ос- 
новні структурні особливості заданої бага- 
товимірної вибірки, зокрема, її кластерну 
структуру. Тому три- або двовимірне шка- 
лювання часто використовують для аналізу і 
розуміння як початкових даних, так і резуль- 
татів рішення задачі кластеризації. 

Слід зазначити, що в роботі |7)| метод 
багатовимірного шкалювання використову- 
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вався як для візуалізації наборів даних і ре- 
зультатів кластеризації, так і для зменшення 
розмірності простору ознак. Точніше, було 
здійснено ранжування елементів множини 
ознак з метою вибору найбільш інформатив- 
них та істотних ознак. Безумовно, такий під- 
хід до реалізації кластеризації наборів даних 
слід рекомендувати як надзвичайно пер- 
спективний 1 такий, що заслуговує найпиль- 
нішої уваги. 

Саме метод багатовимірного шкалю- 
вання використовувався в даній роботі для 
аналізу, оцінки та порівняння різних алго- 
ритмів кластеризації. 

Нарешті, важливим етапом у вирішен- 
ні задачі кластеризації є змістовна інтерпре- 
тація результатів кластеризації. Зокрема, 
опис отриманих кластерів мовою предмет- 
ної області. Як правило, цю частину рішення 
доцільно доручати кваліфікованим фахів- 
цям у даній області. При цьому ефективним 
інструментом для здійснення адекватної ін- 
терпретації результатів кластеризації є зруч- 
на, наочна й зрозуміла для звичайних корис- 
тувачів візуалізація підсумкового розподілу 
даних на кластери. 

Результати дослідження 

Ідеальним результатом порівняння ал- 
горитмів кластеризації були б різні кількісні 
показники для оцінки тих чи інших характе- 
ристик і особливостей цих алгоритмів. От- 
римати такі показники можливо (і несклад- 
но) в кожній конкретній ситуації. Однак зна- 
чення 1 цінність таких даних невеликі, тому 
що значення цих показників істотно зале- 
жать від особливостей того початкового на- 
бору даних, для якого застосовувався аналі- 
зований алгоритм кластеризації. Найоб'єк- 
тивніший кількісний порівняльний аналіз 
можна було б отримати лише використову- 
ючи певні стандартні або канонічні (наприк- 
лад, за типом, структурою і розміром) набо- 
ри даних, яких на сьогоднішній день не 
існує. 

Зокрема, при аналізі кожного з перера- 
хованих вище алгоритмів безумовно визна- 
чалися традиційні кількісні параметри їхньої 
реалізації - час роботи і обсяг споживаної 
пам'яті. Однак продуктивність сучасної об- 
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числювальної техніки така, що значення цих 
параметрів не є аж так істотними для розв'я- 
зання більшості реальних задач кластериза- 
ції. Тому в цьому огляді дані параметри відо- 
бражені лише опосередковано. 


У результаті для кожного з дослідже- 


них алгоритмів було сформульовано основні 
характеристики у вигляді їхніх відносних 
переваг і недоліків. 


Спектральна кластеризація 
Переваги: добре працює для невеликої 
кількості кластерів. 

Недоліки: повільний; вимагає зазна- 
чення кількості кластерів; не рекомен- 
дується для випадку великого числа 
кластерів. 

Агломераційна кластеризація з 
одиночним зв'язком 

Переваги: добре працює для невеликої 
кількості кластерів (до 10000 точок); 
не вимагає попереднього задання кіль- 
кості кластерів; може розділити дані 
на будь-яку кількість кластерів; велика 
гнучкість при зміні значень параметрів 
і обмежень; хороші результати для 
кластерів складної структури; досить 
добре масштабується. 

Недоліки: алгоритм досить повільний; 
має тенденцію створювати довгі тонкі 
кластери, в яких сусідні елементи од- 
ного кластера близькі, в той час як еле- 
менти на протилежних кінцях кластера 
можуть бути набагато далі один від од- 
ного, ніж два елементи різних класте- 
рів; погано працює з неопуклими 
кластерами. 

Агломераційна кластеризація з 
повним зв'язком 

Переваги: практично ті самі, що Й для 
одиночного зв'язку. 

Недоліки: порядок обробки даних 
впливає на кінцевий результат; чутли- 
вий до викидів («шуму»); висока об- 
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стійного пошуку найближчого сусіда; 
відсутність обгрунтування та гарантій 
збіжності алгоритму до оптимального 
рішення; припиняє пошук рішення, ко- 
ли зміна в центроїдах є малою. 
ВІВСН 

Переваги: двоступенева кластеризація; 
можливість кластеризації великих об'є- 
мів даних; обмежений обсяг пам'яті; 
може працювати за один прохід, але дає 
змогу поліпшити якість рішення за до- 
помогою кількох додаткових запусків; 
успішно застосовується для неоднорід- 
них за розмірами та формами кластерів; 
добре масштабується для порівняно не- 
великого числа кластерів; успішно 
справляється з ситуацією наявності 
«шуму» у початкових даних. 

Недоліки: обробляє дані тільки число- 
вих типів; вимагає задання порогових 
значень; добре виділяє тільки кластери 
опуклої або сферичної форми; погано 
масштабується для великих наборів 
даних. 

К-Меап5я 

Переваги: простота налаштування Й 
використання; хороша швидкість реа- 
лізації; зрозумілість 1 прозорість алго- 
ритму; дає хороші результати для 
опуклих даних; добре масштабується. 
Недоліки: алгоритм занадто чутливий 
до викидів; повільна робота для вели- 
ких наборів даних; необхідність зада- 
вати кількість кластерів; неможливість 
застосування алгоритму для даних, де 
кластери перетинаються; рандомізова- 
ний, що означає можливість отриман- 
ня різних результатів при кожному йо- 
го запуску; відсутність гарантії отри- 
мання оптимального рішення; погано 
працює, коли розміри і форми класте- 
рів неоднорідні. 

МіпіВаєс-К-Меап5 є модифікацією 


алгоритму К-Меапз8, яка дає змогу істотно 
підвищити ефективність рішення в порів- 
нянні з оригінальним алгоритмом. 


числювальна складність. 
Середнє зміщення (Меап 5Пійт) 
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Переваги: висока швидкість реалізації; 
автоматично встановлює кількість 
кластерів. 

Недоліки: не є добре масштабованим, 
так як вимагає під час виконання по- 


Переваги: простота і зрозумілість ал- 
горитму та його використання; більш 
висока швидкість реалізації порівняно 
з методом К-Меапз8; можливість клас- 
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теризації великих об'ємів даних; хоро- 

ший баланс якості рішення та часу 

обчислень. 

Недоліки: результат істотно залежить 

від ініціалізації центроїдів, тому ба- 

жаною є багаторазова реалізація 
процедури. 

СОКЕК. Алгоритм кластеризації СОВЕ 
є ще однією модифікацією методу К-Меап5 
з метою усунення ситуації, коли розміри і 
форми кластерів неоднорідні. 

Переваги: якісно виконує кластериза- 
цію навіть при наявності викидів; виді- 
ляє кластери складної форми і різних 
розмірів; не вимагає великих затрат 
пам'яті. 
Недоліки: необхідність у заданні поро- 
гових значень і кількості кластерів; по- 
гано застосовний для великих наборів 
даних з огляду на велику часову 
складність. 
К-тедоідйя 
Переваги: простота використання; ви- 
сока швидкість реалізації; зрозумілість 
і прозорість алгоритму; алгоритм 
менш чутливий до викидів у порівнян- 
ні з К-Меапз5. 
Недоліки: необхідно задавати кіль- 
кість кластерів; повільна робота на ве- 
ликих наборах даних. 
ОВ5САХМ 
Переваги: найкраще працює на щіль- 
них кластерах; гарантує оптимальні рі- 
шення при правильному виборі пара- 
метрів; нечутливість до викидів; здат- 
ність виділяти кластери довільної фор- 
ми; не вимагає задання кількості клас- 
терів 1 автоматично визначає це число. 
Недоліки: алгоритм не дуже надійний, 
тому що дуже чутливий до зміни пара- 
метрів; рандомізований; досить склад- 
ний у налаштуванні, бо непросто знай- 
ти адекватні значення параметрів; час 
реалізації досить великий; для отри- 
мання найкращого результату слід за- 
пускати його кілька разів з різними 
комбінаціями параметрів. 

ЕМ (Ехресіайіоп5-Махітігабіоп) 

Переваги: стійкість до шумів і викидів; 

можливість розбиття початкового на- 
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бору даних на заздалегідь задану кіль- 
кість кластерів; добре математично об- 
грунтований; можливість його засто- 
сування для даних, у яких кластери пе- 
ретинаються; лінійна | залежність 
складності реалізації від розміру набо- 
ру даних; швидка збіжність алгоритму 
при вдалому виборі початкових умов. 
Недоліки: бажано, щоб всі параметри 
даних були нормально розподілені; 
відсутність гарантії отримання опти- 
мального рішення, оскільки алгоритм 
може зупинитися в локальному 
мінімумі й дати квазіоптимальний 
розв'язок. 
КОЕКІ, 
Переваги: точність мінімізації функ- 
ціоналу якості (при вдалому підборі 
основного параметра В); наочність ві- 
зуалізації результатів кластеризації; 
гарантована (математично обтрунтова- 
на) збіжність алгоритму; можливість 
оперативно втручатися в роботу алго- 
ритму, здійснюючи корекцію центрів 
кластерів; можливість підрахунку про- 
міжних значень різних функціоналів 
якості; можливість перевірки гіпотез 
схожості і компактності в процесі ро- 
боти алгоритму; не вимагає задання 
кількості кластерів. 
Недоліки: відносно низька продуктив- 
ність (швидкість реалізації); незадо- 
вільні результати для кластерів склад- 
ної форми; нестійкість алгоритму (за- 
лежність від вибору початкової точки); 
необхідність апріорних знань про ос- 
новні характеристики кластерів. 

Висновки і рекомендації 

Одним з центральних критеріїв якості 
рішення задачі кластеризації є характерис- 
тика, яку можна назвати стабільністю рі- 
шення. Отримане рішення задачі кластери- 
зації можна вважати стабільним, якщо цей 
результат зберігається при зміні методів 
кластеризації. 

Важко розраховувати на повний збіг 
результатів при застосуванні різних проце- 
дур кластеризації. Тому на практиці рішення 
вважається стабільним, якщо при порівнянні 
групи збігаються більше, ніж на 7090, Тут діє 
просте емпіричне правило -- стійка типо- 
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логія зберігається | при зміні методів 
кластеризації. 

Наслідком перевірки отриманої клас- 
теризації на стабільність є висновок про до- 
стовірність (об'єктивність) розв'язання за- 
дачі. На сьогодні перевірити достовірність 
(адекватність) отриманого рішення іншими 
методами, не надається можливим. Саме цей 
метод багаторазового застосування кількох 
алгоритмів кластеризації до заданого набору 
даних слід рекомендувати на практиці для 
отримання | максимально | достовірного 
рішення. 

Безумовно, слід рекомендувати також 
використання різних процедур візуалізації 
даних на всіх етапах виконання задачі клас- 
теризації. Це доцільно робити спочатку для 
дослідження особливостей початкового на- 
бору даних. І особливо важливою є ця про- 
цедура для аналізу підсумкових результатів 
реалізації алгоритмів кластеризації. На сьо- 
годні крім вищезгаданого методу багатови- 
мірного шкалювання МЮІ5 |3,6,7) існують 
також інші доступні й досить прості у вико- 
ристанні процедури візуалізації даних. 
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КЕ5ОМЕ 


К.М. Тгокрутспик 

Везиії ої їе5ііпе, гезеагсп апа 
апаїузі8 ої Ше Базіс спи5іегіпо аїгогіїптя ої 
пштегіса! Чаїа 5еї5 

Тріз ууогк 15 деуоїед (о фе іе5іпеє, 
гезеагсп апа сотрагайує апаїузіз ої Ше то5і 
ууеЇ-Кпоуп апа улдеїу и5едй теїрод5 апа 
аїєогійптя (Піегагспіса! апа поп-ріегагспісаї 
ог егапує) ог сІи5(егіпо питегіса! Чаїа 5еї8. 

Ту єгоиря ОЇ (е5і5 ууеге деуеіоредй їог 
апаїугіпє апа сотрагіпє сІц5кегіпє аїієо- 
гіфто8. Тре Бг5: єгойр соп5і5(5 ої піодеі 
(ага пса!) 5ек5 ої роїпі5 ог муУбісіп Фе гезиїї ої 
роз8ібіе сІиз(егіпо 15 ргедепей. Пп огаег іо 
е5: Ше аррПпеа аїєогітя їог 5:2рїШсу Їог (Пі5 
єгопр, уагіоц5 теШод5 ої з5ирегітровіпе, 
уагіоцзя пої5е5 оп Фе огієїпа! 14еа! Йага ууеге 
цей. Пі Ше 5есопа єгоир ої (е515, Фе роїпіз ої 
Фе іпіца! затріе аге спо5еп гапдотіу ибіпе 
уагіоцзя гапдот питбег 5еп5ог5 ц5іпе дФіНегепі 
дії5ігібицоп Іам/5. 

Миіцаїтепзіопа! зсаппе, маз арріед (о 
еуаїшаге Ше гезціїв ої 50Їміпя, Ше сІи5іегіпе 
ргобіет Бу уї5паПліпе, Чаїа5еїя а! аї 5каєе5з ої 
Фе ітріетепіайоп ої Фе 5щшаїеа аїдогіїт5. 

Бог сасрп ої Ше аїдбогіппа5 5шшдїед Фе 
таїп срагасіегі5ййся аге Рогпаціаєеа їп фе їогті 
ої Реїг геЇайуе адуапіаєєз апа фзадуатаєвєз. 
Ассогаїпе (о Бе (езі гекиії8, сопсіц5іоп5 апа 
гесотттепдацопо Їог ц5іпє Шезе аЇсогіїрт5 
аге Тогпиіїакед. 
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